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fi 要 : [目的 /意义 ] 针 对 科研 人 员 日 益 强 烈 的 科学 数据 检索 与 发 现 需 求 ,丰富 和 完善 科学 数据 的 元 数据 ,实现 科学 数据 
与 学 术 文献 的 深度 关联 发 现 。|[ 方 法 /过 程 ] 通过 对 国内 外 关联 服务 方式 和 服务 实践 进行 分 析 和 总 结 ,提出 科学 
数据 检索 与 关联 服务 系统 架构 ,并 实现 学 术 资 源 元 数据 采集 及 融合 、 科 学 数据 元 数据 丰富 与 增强 以 及 科学 数据 检 
索 与 关联 发 现 服务 。[ 结果 /结论 ] 科 学 数据 元 数据 质量 的 改善 可 以 支持 科学 数据 和 学 术 文 献 之 间 更 深层 次 、 更 细 
粒度 的 语义 关联 服务 ,助力 用 户 发 现 科 学 数据 以 及 与 其 相关 联 的 学 术 文献 。 
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随 着 数据 密集 型 科研 范式 以 及 数据 科学 的 兴起 与 
,科学 数据 在 科学 研究 .科技 创新 、 循 证 决策 中 的 
和 保障 作用 愈 发 明显 。 在 国家 层面 ,科学 数据 和 
文献 资源 已 被 欧美 等 发 达 国家 归 类 为 国家 基础 设 
本 重 要 组 成 部 分 ,欧盟 美国 、 德 国 等 制定 了 相关 战 
咯 现 划 和 政策 ,促进 科学 数据 的 共享 和 可 重用 。 众 多 
And tH ct .基金 资助 机 构 、 科 研 机 构 .学 会 联盟 等 纷 
纷 而 定 科学 数据 共享 政策 ,出 版 社 明确 要 求 或 建议 作 
者 给 提交 论文 的 同时 提交 相关 的 支撑 数据 ,并 为 文献 
和 数据 分 别 分 配 永 久 性 唯一 标识 符 ( 如 DOL) ,同时 专 
门 出 版 科学 数据 描述 论文 的 数据 期 刊 也 应 运 而 生 。 一 
些 国际 重要 组 织 相继 推出 行动 计划 和 标准 框架 ,如 欧 
洲 开 放 科 学 云 (European Open Science Cloud, ES- 
0C) 趾 文献 与 数据 互 连 框架 (Scholarly Link eX- 
change ,Scholix) ^' , FAIR 数据 原则 后 , Datacite 元 数据 
框架 ” Elixir 互 操作 规范 ”等 ,致力 于 构建 开放 的 、 可 
扩展 的 ,可靠 的 科学 数据 基础 设施 和 数据 共享 生态 环 
境 ,使 科研 人 员 可 以 轻松 地 访问 和 使 用 科学 数据 ,并 呼 
吁 在 出 版 社 和 数据 仓储 库 之 间 创建 互联 机 制 ,促进 学 


术 文 献 科学 数据 等 资源 的 访问 及 关联 发 现 。 

与 此 同时 ,研究 人 员 也 逐渐 意识 到 科学 数据 .科技 
文献 的 某 些 联系 对 于 提升 科研 效率 的 重要 性 ,Elsevier 
在 2019 年 发 布 的 Trust in Research 报告 中 指出 上 , 约 
57% 的 研究 人 员 会 进一步 检查 文献 的 附录 数据 。 将 学 
术 文献 和 科学 数据 联系 起 来 ,可 以 促进 学 术 文献 和 科 
学 数据 的 可 发 现 和 可 检索 ,提高 科研 成 果 的 透明 度 和 
可 重用 性 。 目 前 ,国际 上 一 些 知名 的 出 版 商 、 搜 索引 
擎 .数据 中 心 等 纷纷 推出 学 术 文 献 和 科学 数据 的 关联 
服务 ,如 PubMed " , Elsevier " , Web of Science" Sco- 
pus"! Dimensions" [ELIXIR ZtJg3E & ! TAIR 拟 南 
芥 信息 资源 服务 平台 … 、 科 学 数据 银行 (ScienceDB ) 
等 都 提供 了 将 数据 集 链接 到 出 版 物 的 服务 ;谷歌 学 
ARS .OpenAIREI5 , RD-Switchboard ^ 等 建立 大 型 科 
研 图 谱 ,将 文献 .数据 集 、. 作 者 、 机 构 、 项 目 、 资 助 者 等 学 
术 实 体 / 科 学 交流 实体 联系 起 来 ,从 而 建立 全 面 、 连 通 
的 数据 生态 系统 。 
虽然 现 有 服务 系统 在 一 定 程度 上 解决 了 科学 数据 
的 可 发 现 问题 ,但 由 于 科学 数据 的 分 散 异 构 以 及 元 数 
据 质量 等 问题 ,科学 数据 与 学 术 文 献 的 深层 次 关联 还 
存在 不 足 , 并 且 我 国 在 科学 数据 元 数据 质量 改善 以 及 
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科学 数据 和 学 术 文献 深度 语义 关联 方面 的 研究 相对 比 
较 少 ,缺少 实践 和 应 用 层面 的 探索 。 因 此 ,笔者 聚焦 于 
科学 数据 与 学 术 文献 的 关联 方式 ,重点 分 析 国 外 免费 
的 科学 数据 与 学 术 文献 的 关联 服务 ,并 设计 和 实现 科 
学 数据 的 检索 与 关联 服务 系统 ,在 语义 层次 上 实现 科 
学 数据 元 数据 的 改善 以 及 与 学 术 文 献 关联 服务 ,以 期 
为 我 国 图 书 情报 机 构 开 展 科 学 数据 和 学 术 文献 之 间 的 
关联 发 现 服务 提供 借鉴 。 


2 相关 研究 与 实践 


2.1 科学 数据 与 学 术 文献 的 关联 研究 

近年 来 , 随 着 科学 数据 可 重用 和 共享 理念 的 不 断 
深入 ,关于 科学 数据 与 科技 文献 的 关联 方式 和 关联 关 
夭 构 建 的 研究 逐渐 增多 。 杨 宁 等 ”将 科学 数据 与 科 
技 变 献 的 关联 方法 分 为 主动 关联 和 被 动 关联 两 大 类 ， 
区 绚 主动 关联 分 为 基于 元 数据 的 关联 .基于 引用 的 关 
联防 及 基于 语义 的 关联 。 姜 恩 波 等 5 将 科学 数据 与 
种 腹 文 献 的 关联 方法 分 为 基于 形式 的 硬 关联 和 基于 内 
容 随 软 关 联 。 笔 者 在 此 基础 上 将 科学 数据 与 科技 文献 
RETRDN 分 为 4 种 ,主要 包括 :基于 唯一 标识 符 
Fux 基于 引用 的 关联 .基于 元 数据 的 关联 ,基于 语 
CM HI XE 
Tal 基于 唯一 标识 符 的 科学 数据 与 学 术 文献 关联 
.之 科学 数据 .学术 文献 等 研究 成 果 在 存储 和 发 布 时 ， 
迎 活 被 分 配 数字 对 象 标识 符 , 从 而 使 这 些 研究 成 果 能 
wi BLA Ke AN FL 科学 数据 的 唯一 标识 符 包括 
DOE 标 识 、 数据 访问 号 (如 数据 库 缩 写 :数据 标识 符 ) 、 
ISED 标 识 Handle 标识 PURL 标识 URN 标识 、ARK 标 
WR CSTR 标识 等 ,其 中 DOL 和 数据 访问 号 是 科学 数据 
与 学 术 文献 关联 最 为 常用 的 唯一 标识 符 。 涂 勇 等 、 
孙 文 佳 等 "探讨 了 基于 DOL 实现 科学 数据 与 科技 文 
献 关 联 的 关联 方法 和 关键 技术 ;朱江 等 局 研究 了 基于 
国际 标准 关联 标识 符 ISLI 标准 的 科技 文献 和 科学 数 
据 的 关联 ;德国 国家 科学 技术 图 书馆 也 积极 开展 基 
于 DOI 的 文献 与 科学 数据 之 间 的 关联 以 及 基于 ORCID 
关联 作者 的 文献 和 科学 数据 的 探索 。 
2.1.2 ”基于 引文 的 科学 数据 与 学 术 文献 关联 

科研 活动 每 年 都 会 产生 大 量 类 型 多 样 的 科学 数 
据 ,这 些 科学 数据 被 不 同 团体 和 科研 人 员 使 用 ,并 在 出 
版 物 中 加 以 引用 ,由 此 产生 了 科技 文献 与 其 支撑 数据 
之 间 的 关联 。 这 种 关联 关系 不 但 使 得 科学 数据 具备 了 
重用 性 ,也 使 得 科技 文献 与 科学 数据 产生 了 关联 关系 ， 
一 些 学 者 对 基于 引文 的 科学 数据 与 学 术 文献 关联 方式 


和 方法 进行 研究 ,并 对 特定 领域 文献 中 的 数据 集 进 行 
识别 与 抽取 。 郭 学 武 ” 将 基于 引文 的 关联 分 为 直接 
引用 关联 、 同 被 引 关 联 以 及 基于 引文 的 扩展 关联 3 种 
JER SK og" 以 高 能 物理 领域 为 例 , 研 究 基 于 引文 
探 针 的 文献 与 数据 的 关联 算法 ,通过 对 关联 度 的 计算 
发 现 隐 含 关联 关系 。 作 者 经 常会 在 正文 中 引用 科学 数 
据 , 因 此 一 些 学 者 对 从 论文 全 文中 识别 科学 数据 进行 
了 探索 。N. Riedel “°° 利用 文本 挖掘 算法 ,从 生物 医 
学 领域 的 文献 中 检测 科学 数据 引用 和 可 用 性 语句 ;L. 
L. Hou 等 ” 提出 数据 集 实体 识别 模型 MDER ,并 从 论 
文 全 文 内 容 中 提取 引用 和 提 及 的 数据 集 ,并 在 计算 机 
科学 领域 进行 了 验证 ;B. Ghavimi 等 ”1 利用 半自动 的 
方法 识别 社会 科学 领域 文献 中 引用 的 科学 数据 集 。 
2.1.3 ”基于 元 数据 的 科学 数据 与 学 术 文献 关联 
基于 元 数据 的 科学 数据 与 学 术 文献 关联 主要 是 利 
用 科学 数据 和 学 术 文 献 外 部 及 内 部 特征 的 相似 性 而 建 
立 的 一 种 关联 关系 。 孙 志 茹 等 ”以 生物 信息 领域 的 
数据 描述 和 文献 描述 的 相似 性 为 出 发 点 进行 分 析 , 并 
提出 基于 人 硬 连 接 、 基 于 近邻 关系 ,基于 数据 聚 类 和 基于 
主题 4 种 数据 与 文献 的 关联 方式 ; 黄 徙 瑾 认为 科学 数 
据 和 科技 文献 的 元 数据 关联 模式 包括 作者 关联 、 学 科 
分 类 号 关联 、 关 键 词 关联 ,并 从 数据 和 文献 的 元 数 
据 描述 中 提取 出 表达 内 容 特征 的 元 数据 项 ,利用 向 量 
空间 模型 计算 出 数据 与 文献 之 间 的 关联 关系 ” ; 贺 
社 等 "通过 分 析 天 文 领域 科学 数据 与 科技 文献 在 元 
数据 方面 的 相似 性 及 差异 ,并 基于 数据 挖掘 技术 探讨 
文 领域 科学 数据 与 科技 文献 关联 的 可 行 性 。 
2.1.4 基于 语义 实体 的 科学 数据 与 学 术 文献 关联 
主要 是 从 语义 内 容 角度 实现 科学 数据 与 学 术 文献 
之 间 的 关联 ,语义 实体 是 指 在 科学 数据 的 元 数据 描述 
中 包含 的 关键 概念 .术语 或 实体 (如 物种 名 称 、 基 因 名 
称 、 和 蛋白 质 名 称 、 化 学 物质 、 疾 病 等 ) ,科学 数据 中 语义 
ee 的 方法 主要 有 作者 标注 和 自动 文本 挖掘”。 
孙 钢 后 运用 基于 分 面 分 类 的 描述 方法 对 科学 数据 实 
体 进 行 细 粒度 描述 ,并 在 农业 小 麦 育种 领域 验证 科学 
数据 与 科技 文献 实体 间 的 语义 关联 ; 丁 培 汪 提出 科学 
文献 和 科学 数据 的 细 粒 度 内 容 语 义 关联 模 型 ,并 验证 
基于 本 体 的 实体 识别 实现 数据 与 文献 关联 的 可 行 性 ; 
T. Clark ”提出 了 基于 实体 和 基于 论点 两 种 互补 的 生 
物 医学 文献 与 数据 关联 集成 模型 ; H. Cousijn 等 基 
于 表格 内 容 、. 生 物 实 体 等 多 种 方式 建立 文献 与 科学 数 
据 的 关联 关系 ;I. J. Aalbersberg 等 ”利用 文本 挖掘 \ 术 
语 提取 等 技术 从 全 文中 挖掘 语义 实体 ,并 建立 语义 实 
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体 到 数据 仓储 中 数据 的 关联 链接 。 出 ScholeXplorer 数据 文献 互 连 服务 ;美国 国立 卫生 研 
2.2 ”科学 数据 与 学 术 文献 的 关联 服务 实践 究 院 (NIH) "依托 《美国 国家 医学 图 书馆 2017 - 2027 


国内 对 科学 数据 与 学 术 文献 之 间 的 关联 服务 实践 | 战略 计划 》 的 行动 方案 ,研发 并 推出 了 基于 PMC 的 数 
刚刚 起 步 , 因 此 笔者 主要 选取 国外 免费 的 科学 数据 与 | 据 关联 发 现 服务 ;OpenAIRE ”通过 自动 推理 建立 不 同 
学 术 文 献 的 关联 服务 系统 进行 分 析 。DataCite' 于 | 学 科 的 数据 集 和 出 版 物 之 间 的 语义 关系 ,将 数据 集 和 
2015 年 8 月 推出 DataCite Search 数据 搜索 工具 ,为 用 | 出 版 物 进行 聚合 关联 ,为 科研 全 过 程 提 供 基础 及 附加 
户 提供 一 站 式 数据 检索 服务 ,并 在 出 版 社 和 数据 仓储 | 服务 ;Dryad” PANGAEA | HEPData ”等 领域 科学 
库 之 间 创 建 了 互联 机 制 ; 谷 歌 "认识 到 数据 的 重要 性 | 数据 存储 库 也 已 经 与 文献 实现 了 互联 互通 ,在 科学 数 
日 益 增 加 ,于 2018 年 推出 了 Google Dataset Search ,将 | 据 存储 库 中 检索 到 的 科学 数据 ,除了 显示 科学 数据 的 
数据 集 的 可 发 现 提 升 到 一 个 新 的 水 平 ; 研 究 数据 联盟 | 基本 信息 外 ,还 提供 了 与 文献 的 链接 。 这 些 免费 的 科 
(RDA) .世界 数据 系统 (WDS) “等 从 数据 中 心 .期 刊 ” 学 数据 与 学 术 文献 的 关联 服务 系统 对 比 情况 如 表 1 所 
出 版 商 和 研究 机 构 收 集 数据 和 文献 之 间 的 链接 ,并 推 | oon: 

表 1 免费 的 科学 数据 与 学 术 文 献 关 联 服务 系统 对 比 


数据 集 数 


Y 


> 名 称 类 型 年 份 国 别 /地 区 学 科 领 域 资源 类 型 量 /万 个 数据 接口 
D3tàCite Search 科学 数据 搜索 ”2015 ” 德 .美英 等 各 个 ”综合 数据 集 、 图 片 . 音 视 频 , 软 件 、 ”2641 。 OAI-PMH API 
us 国家 /地 区 模型 .工作 流 ,数据 论文 等 
p Dataset Search 科学 数据 搜索 «2018 美国 综合 数据 集 2 500 Xx 
| d 

s ScholeX- ”综合 搜索 引擎 2015 ”欧盟 美国, 澳 大 ”综合 数据 集 、 文 献 等 958.7 REST API 
Plater 利 亚 等 
Gn pac 综合 搜索 引擎 — 2018 ”美国 生物 .医学 数据 集 、 文 献 等 - OAI-PMH API, 
eo RESTful API 
fido: exProne 综合 搜索 引擎 — 2019 ”欧盟 综合 数据 集 、 文 献 . 项 目 、 软 件 等 1187.7 HTTP API 
EX 领域 科学 数据 2008 ”美国 生物 数据 集 4.2 OAL-PMH API 
之 存储 库 
SEANGAEA 领域 科学 数据 1993 fE 环境 和 地 球 科 ”数据 集 , 项 目 等 40.4 OAI-PMH API 
E 存储 库 学 .生命 科学 

= 领域 科学 数据 。 1975 KE 高 能 物理 数据 集 (图 片 和 表格 ) 9.9 RESTful API 
— 存储 库 

6 注 :因为 在 网 站 上 没有 找到 PANGAEA 和 HEPData 推出 数据 与 文献 关联 服务 的 具体 时 间 , 所 以 表 中 列 出 的 时 间 为 数据 库 的 建立 时 间 ;@ 


4j 
国 别 是 指 研发 或 维护 该 服务 系统 的 机 构 或 联盟 所 属 的 国 别 


综 上 可 以 看 出 ,主流 的 搜索 引擎 数据 中 心 等 都 开 — —À 
始 关注 科学 数据 的 收集 和 汇聚 ,专门 针对 科学 数据 进 | 3 科学 数据 检索 与 关联 服务 系统 设计 与 


行 检索 发 现 ,并 将 文献 与 科学 数据 联系 起 来 。 数 据 存 | 实现 


AEE A 物理、 医药 等 日 然 科 守 :领域 ,科学 数据 | 文 、 会 议论 文 ,科技 报告 等 文献 资源 ,科学 数据 也 和 逐渐 


与 学 术 文献 之 间 的 关联 和 链接 服务 实践 较为 成 熟 , 实 | 成 为 科研 人 员 所 需要 的 重要 资源 。 科 研 人 员 会 从 学 术 
现 了 文献 与 数据 之 间 深 层 的 语义 关联 服务 ,而 社会 科 | 文献 出 发 ,从 文献 的 内 容 中 或 参考 文献 中 发 现 科 学 数 
学 领域 的 关联 服务 实践 则 较 少 。 越 来 越 多 的 出 版 商 与 | 据 的 线索 。 因 此 ,如 何 将 科学 数据 和 学 术 文 献 进行 有 
数据 中 心 ,机构 团 体 开展 合作 ,建立 协作 共享 机 制 , 积 | 效 的 关联 ,对 于 提高 科研 活动 效率 .加强 科学 数据 的 复 
极 实现 数据 和 文献 之 间 的 互通 互联 ,并 注重 互 操作 性 ， | 用 和 共享 .实现 更 深层 次 的 知识 发 现 ,都 具有 极为 重要 
如 提供 数据 访问 的 标准 接口 (如 OAI-PMH API Restful | 的 现实 意义 。 借 鉴 国外 相关 服务 系统 ,笔者 围绕 如 何 
API 等 ) ,遵循 FAIR 数据 原则 等 ,确保 公共 存档 的 数据 | 有 效 检索 科学 数据 以 及 如 何 利 用 科学 数据 与 学 术 文献 
和 文献 之 间 可 引用 和 可 关联 ,有 效 提高 科学 数据 的 可 | 之 间 关 系 强化 发 现 服务 这 一 核心 问题 ,挖掘 科学 数据 
检索 性 ,发现 性 可 解释 性 和 可 重用 性 。 和 学 术 文 献 中 的 语义 实体 ,丰富 和 完善 科学 数据 元 数 
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d, 等 .科学 数据 与 学 术 文 献 关 联 服 务 的 研究 与 实现 [J]. 图书 情报 工作 ,2021,65(23 ) :116 -125. 


据 质量 ,增强 科学 数据 的 可 发 现 能 力 ,并 将 科学 数据 与 
学 术 文 献 进行 深度 融合 和 语义 关联 ,基于 唯一 标识 符 、 
引用 关系 、 元 数据 和 语义 实体 ,将 科学 数据 与 相关 学 术 


文献 联系 起 来 ,实现 多 层次 的 增强 型 发 现 与 关联 服务 ， 
帮助 用 户 快速 地 发 现 科技 资 源 。 科 学 数据 检索 与 关联 
服务 系统 的 架构 如 图 1 所 示 : 


科学 数据 与 学 术 文献 的 关联 发 现 服务 


EL Jm | MI AA) 
科学 数据 元 数据 丰富 


EJ | RARO | 主题 标 引 ] | 


数据 与 文献 
| 语义 关系 建立 | 


1 


[i 


多 模 态 学 术 资 源 的 采集 和 融合 
| 元 数据 采集 | E | . EN | 
学 术 资源 | | 语义 知识 库 
4 科学 数据 LN LI 


0407v1 


3D 学 术 资 源 元 数据 采集 及 融合 
SPDatacite 是 科学 数据 唯一 标识 DOT 的 注册 机 构 ， 
号 Ref 是 学 术 文献 唯一 标识 的 注册 机 构 ,两 者 收录 
苇 枫 威 的 科学 数据 和 学 术 文献 的 元 数据 ,因此 笔者 选 
tacite 和 CrossRef 作为 数据 来 源 。 通 过 OAI API 
方 绕 获取 了 Datacite 和 CrossRef 的 元 数据 ,利用 Kettle 
下 其 分 别 进行 ETL 数据 处 理 , 并 按照 一 定 规则 进行 数 
ie ,只 对 含有 关联 关系 的 科学 数据 元 数据 进行 字 


n 


ch 


1 科学 数据 检索 与 关联 服务 系统 架构 


段 解析 和 格式 转换 ,构建 形成 科学 数据 元 数据 库 和 学 
术 文 献 元 数据 库 , 共 包含 376 万 余 条 科学 数据 元 数据 ， 
全 部 带 有 DOT 标识 符 。 同 时 ,对 科学 数据 与 学 术 文献 、 
科学 数据 与 科学 数据 之 间 的 链接 关系 进行 解析 、 抽 取 、 
查 重 和 合并 ,并 基于 数据 关联 模型 ( 见 图 2) 和 Datacite 
元 数据 框架 定义 的 关系 类 型 受 控 词 汇 表 ( 如 “IsCited- 
By” “IsSupplementTo” “ HasPart”“ IsDerivedFrom” 等 ) , 
形成 包含 858 万 余 条 关系 记录 的 关联 关系 库 。 


= 


e KED 
© ID(doi) * ID(doi) 
© 标题 e 标题 
。 作 者 * 作者 
© 发 布 机 构 e 出 版 机 构 
e 发 布 日 期 e 出 版 日 期 
。 类 型 TREE 。 来 源 对 象 ID a ES 
© 目标 对 象 DD 
o 关系 类 型 
来 源 对 象 目标 对 象 
3 Cites -一 
——- 
IsCitedBy = 
oi IsSupplementTo oi 
< 
[5] IsSupplementedBy 
= HasSameEntity 


2 数据 关联 模型 
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在 数据 处 理 过 程 中 ,采用 基于 规则 的 方式 对 
CrossRef 参考 文献 中 的 科学 数据 引用 记录 进行 识别 和 
保存 ,例如 参考 文献 的 题名 以 “Data from:” 或 “Data 
for:” 开 头 , 共 识别 和 提取 了 6 483 条 引用 数据 ,在 关 
联 关系 库 中 为 相关 的 科学 数据 增加 “IscitedBy” 关系 
类 型 。 虽然, 目前 参考 文献 中 出 现 科 学 数据 引用 的 
数量 还 比较 少 ,但 随 着 科学 数据 引用 被 科研 人 员 广 
泛 认 可 以 及 出 版 社 和 基金 资助 机 构 提 出 强制 要 求 或 
建议 ,更 多 的 研究 人 员 会 提交 和 共享 数据 ,科学 数据 
引用 的 数量 将 逐渐 增长 。 截 至 2020 年 底 , 已 有 
13 000 多 个 期 刊 支持 数据 提交 和 共享 政策 “ ,促进 
科学 数据 和 学 术 文献 链接 关系 的 建立 在 出 版 物 提交 
系统 以 及 科学 研究 生命 周期 的 上 游 得 到 实施 。 同 
时 FE 堕 着 Crossref 和 DataCite 合作 的 深入 开展 ,将 会 进 
- 王 硬 保科 学 数据 和 学 术 文献 之 间 引用 关系 的 完整 
性 和 准确 性 。 
村 本 研究 形成 的 关联 关系 库 主要 包括 科学 数据 与 学 
E 献 之 间 的 关系 和 科学 数据 与 科学 数据 之 间 的 关 
系 s 洪 中 数量 排名 前 10 的 关联 关系 情况 见 表 2 ,关系 类 
AGRI pt A 和 B 至 少 有 一 个 为 科学 数据 。 从 表 2 可 
上 如 册 ,关系 类 型 最 多 的 是 “JsPantOf" (ai HE 28. 9% ) 
RS HasMetadata" ( 占 比 24. 4% ) , * IsPartOf" 表示 科学 
MER A 是 科学 数据 B 的 一 部 分 “HasMetadata" 表 示 科 
ami A 具有 其 他 元 数据 B; 其 次 是 “TsCitedBy”( 占 
LPR 0% ) fl" IsSupplementTo” ( 4 HE 6.4% ) “IsCited- 
BURZ B 在 引文 中 包含 A,“IsSupplementTo” 表 示 A 
tdi HJ 4h75. "IsCitedBy " “ IsSupplementTo” “ Refer- 
enéés" “Cites” 等 是 实现 科学 数据 和 学 术 文 献 关 联 的 主 


标题 


待 标 引 数据 | ”关键 词 
摘要 或 描述 


生物 物种 、 化 学 物 
质 、 基 因 实 体 标签 


分 词 处 理 与 D 
关键 词 提取 


要 关系 类 型 。 
表 2 排名 前 10 的 关联 关系 情况 
序号 AAN KREE rt 关系 类 型 说 明 
1 IsPartOf 2478868 28.9 表示 A 是 B 的 一 部 分 
2 HasMetadata 2 094 643 24.4 ”表示 A 具有 其 他 元 数据 B 
3 IsCitedBy 689189 8.0 表示 B 在 引文 中 包含 A 
4 IsSupplementTo 550301 6.4 表示 A 是 B 的 补充 
5 IsDocumentedBy 468428 5.4 表明 B 是 关于 或 解释 A 的 文档 
6 HasVersion 436383 5.1 表示 A 有 一 个 版 本 B 
7 IsVersionOf 429 824 5.0 表示 A 是 B 的 一 个 版 本 
8  IsPreviousVersionOf 367 800 4.3 表示 A 是 B 的 早期 版 本 
9 References 279 294 3.3 表示 B 作为 A 的 信息 源 
10 Cites 118274 1.4 表示 A 在 引文 中 包含 B 
3.2 ”科学 数据 元 数据 丰富 与 增强 


对 科学 数据 进行 描述 和 组 织 是 科学 数据 共享 、 检 
索 和 利用 的 前 提 , 元 数据 可 以 用 于 描述 科学 数据 的 内 
容 及 形式 等 特征 。 不 过 ,目前 大 多 数 科 学 数据 的 元 数 
据 信息 都 比较 少 , 数 据 描述 通常 不 完整 或 没有 包含 足 
够 的 详细 信息 ,缺少 主题 .分 类 等 。 笔 者 在 分 析 科技 数 
据 内 容 特征 元 数据 的 基础 上 ,基于 词 表 、 本 体 等 知识 组 
织 体系 ,利用 科学 数据 的 标题 ,关键 词 . 摘 要 (或 描 
述 ) ,实现 了 科学 数据 的 自动 分 类 、 主 题 标 引 和 语义 实 
体 标 签 生 成 ,为 科学 数据 补充 主题 概念 《中 国 图 书馆 
分 类 法 ) 分 类 号 (以 下 简称 “中 图 分 类 号 ”) .生物 物种 
实体 标签 ,化 学 物质 实体 标签 .基因 实体 标签 等 信息 ， 
增强 和 丰富 了 科学 数据 的 语义 元 数据 ,为 科学 数据 的 
分 面 浏览 和 关联 发 现 服务 提供 支撑 。 科 学 数据 元 数据 
丰富 与 增强 的 流程 如 图 3 所 示 : 


“| 多 因子 打分 “| 分 类 号 排序 | 分 类 号 列表 
算法 


3 ”科学 数据 元 数据 丰富 与 增强 的 流程 


3.2.1 语义 实体 标签 的 自动 生成 
语义 实体 主要 指 科学 数据 的 标题 关键 词 .摘要 或 
描述 等 信息 中 包含 的 有 意义 的 实体 名 称 , 如 物种 名 称 、 


化 学 物质 .基因 名 称 、 蛋 白质 名 称 等 。 笔 者 主要 采用 基 
于 词典 的 方法 进行 语义 实体 抽取 。 首 先 ,在 ISTI、Spe- 
cies 2000 , Uniport, Mesh 等 基础 上 构建 领域 实体 词典 ， 
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然后 在 题名 、 关 键 词 .描述 或 文摘 中 ,对 词典 中 已 有 的 
实体 进行 匹配 ,如 果 匹 配 上 , 则 对 该 实体 进行 识别 和 抽 
取 , 并 标记 出 现 的 位 置 ,为 该 科学 数据 自动 生成 相关 的 


实体 标签 。 笔 者 主要 为 科学 数据 增加 了 化 学 物质 、 生 
物 物种 和 基因 实体 标签 ,科学 数据 的 语义 实体 标签 抽 
取 示 例如 表 3 所 示 : 


表 3 科学 数据 的 语义 实体 标签 抽取 示例 


序号 题名 DOI 化 学 物质 标签 物种 标签 基因 标签 
1 Supplementary Material for; Involvement of Heat Shock Pro- 10. 6084/m9. figshare. ^ Proteins Candida HSP90 
teins in Candida albicans Biofilm Formation 5125192. v1 


2 Data from; A fat-derived metabolite regulates a peptidergic — 10. 5061/dryad. 8hm82 Neuropeptide Y; sepi- ^ Drosophila; Drosophila BH4 
feeding circuit in Drosophila apterin ; melanogaster ; 

3 A simple and versatile authenticity assay of coffee products by 10. 6084/m9. figshare. ^ Coffee; DNA; Coffea rbcL 
single-nucleotide polymorphism genotyping 8174558. v1 

4 Data from; Discrimination of grasshopper ( Orthoptera; Acri- — 10. 5061/dryad. r8c3b DNA Chortophaga; Dissostei- rbeL 


didae) diet and niche overlap using next-generation sequen- 
cing of gut contents 
5 The role of PIBK/Akt signal pathway in the protective effects 


of propofol on intestinal and lung injury induced by intestinal 
= ischemia/reperfusion 


太 为 了 在 学 术 文献 和 科学 数据 之 间 建 立 基于 语义 实 
体 苗 关联 关系 ,除了 在 科学 数据 元 数据 中 进行 语义 实 
优生 识别 和 抽取 ,还 需要 在 学 术 文献 的 元 数据 中 进行 
请 将 实体 的 识别 和 抽取 。 
3C» 科学 数据 的 自动 分 类 标 引 
和 笔者 在 文献 [46] 中 结合 加 权 策略 提出 一 种 全 流 
种 网 基 于 多 因子 算法 的 自动 分 类 方法 ,该 方法 本 身 无 
领域 和 处 理 对 象限 制 。 基 于 人 工 标 引 经 验 和 训练 语 料 
两 得 优 势 ,结合 分 类 号 出 现 概率 、 关 键 词 位 置 权重 、 合 
中 谷类 号 下 各 关键 词 占 比 .命中 分 类 号 下 所 有 关键 记 
出 狐 的 频率 等 多 个 影响 因素 ,实现 自动 分 类 。 通 过 继 
承 绑 用 已 有 权威 语料库 ( 如 英文 超级 科技 词 表 STKOS , 
中 国 农业 科学 叙 词 表 CAT 等 ) .基于 高 质量 权威 来 源 
文献 数据 抽取 关键 词 和 学 科 分 类 号 等 多 种 方式 构建 标 
注 语料库 , 即 在 包含 词语 .概念 .术语 等 表征 文献 内 容 
的 知识 元 词 库 基础 上 ,纳入 揭示 领域 特征 的 学 科 分 类 
号 ,建立 主题 词 -分 类 号 对 照 数 据 库 ,保障 后 续 自动 分 
类 的 准确 性 。 在 采用 权威 标注 语料库 和 不 介入 人 工 审 
核 , 仅 通过 多 因子 算法 计算 的 情况 下 ,所 提出 的 自动 分 
类 方法 针对 多 学 科 领 域 学 术 文献 随机 样本 的 准确 率 和 
F 值 均 在 80% 以 上 。 

笔者 采用 文献 [46] 中 的 多 因子 算法 对 科学 数据 
进行 自动 分 类 。 首 先 ,通过 分 词 工具 对 待 标 引 科学 数 
据 的 元 数据 信息 (标题 .摘要 或 描述 及 关键 词 ) 进行 切 
词 并 提取 关键 词 ,获取 主题 信息 。 然 后 将 提取 的 关键 
词 与 选 定 的 标注 语料库 中 关键 词 进行 完全 匹配 ,获取 
命中 的 关键 词 及 相应 学 科 分 类 号 信息 ,并 计算 出 关键 


10. 6084/m9. figshare. 
7143152. v1 


ra; Melanoplus; 


Malondialdehyde ; - PBK 


Propofol; Superoxide 


Dismutase ; 


词 对 应 的 各 学 科 分 类 号 在 该 语料库 所 有 学 科 分 类 号 中 
的 频率 。 最 后 ,基于 学 科 分 类 号 出 现 概率 与 抽取 关键 
词 位 置 权重 、 命 中 学 科 分 类 号 下 各 关键 词 在 该 分 类 号 对 
应 的 所 有 关键 词 中 的 占 比 、 命 中 学 科 分 类 号 对 应 所 有 关 
键 词 在 该 分 类 号 下 出 现 的 频率 等 ,进行 加 权 计算 并 对 学 
科 分 类 号 得 分 排序 ,选取 排名 前 5 的 学 科 分 类 号 作为 科 
学 数据 的 分 类 号 。 科 学 数据 自动 分 类 的 示例 见 表 4。 
3.3 ”科学 数据 检索 与 关联 发 现 服务 

基于 语义 增强 的 科学 数据 元 数据 库 , 笔 者 实现 了 
科技 数据 的 检索 、 浏 览 和 关联 发 现 服务 (网 址 为 :ht- 
tp://www. agriknow. cn/nstl/datacite. html) , 支持 按 发 
布 日 期 \ 类 型 .生物 物种 实体 、 化 学 物质 实体 、 基 因 实 
体 、 学 科 分 类 (中 图 法 ) .关键 词 ,发布 者 .来 源 ( 发 布 机 
I) .访问 许可 资助 机 构 等 多 角度 的 浏览 ,提供 科学 数 
据 下 载 链接 。 并 与 学 术 文献 检索 进行 集成 ,提供 “主题 
词 “ 文 撑 数 据 ” 等 分 面 的 限定 检索 ,实现 科学 数据 与 
学 术 文 献 的 双向 关联 ,支持 科学 数据 与 学 术 文 献 的 关 
联 发 现 和 导航 服务 ,并 基于 语义 实体 为 用 户 提供 更 多 
的 研究 线索 。 

对 科学 数据 相关 的 文献 和 支持 文献 的 科学 数据 进 
行 有 效 集 成 和 关联 ,用 户 在 检索 结果 页 面 上 ,通过 选择 
左 侧 分 面 “ 文 撑 数据 ”, 可 以 浏览 关联 科学 数据 的 学 术 
文献 ( 见 图 4) 。 用 户 在 浏览 和 查看 学 术 文 献 详细 信息 
时 ,通过 点 击 页 面 右 侧 的 “相关 数据 "可 以 直接 链接 至 
文献 中 提 及 的 数据 集 ( 见 图 5 AP) ,也 可 以 在 查看 科 
学 数据 的 详细 信息 时 点 击 “ 相关 文献 ” ,链接 至 与 该 科 
学 数据 相关 的 学 术 文献 ( 见 图 5 左上 )。 
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表 4 科学 数据 自动 分 类 的 示例 


序号 题名 DOI 中 图 分 类 号 类 名 

1 Data from; Plant dispersal in the sub-Antarctic inferred from anisotropic — 10. 5061/dryad. Q94 ;0;Q14;Q1 ;S6 植物 学 ; 生物 科学 ;生态 学 ( 生 
genetic structure AfT:5 vg8 物 生态 学 ) ;普通 生物 学 ;园艺 

2 Data from; Root vertical distributions of two Artemisia species and their — 10. 5061/dryad. Q94;85;Q;Q05;X 植物 学 ;农业 科学 ;生物 科学 ; 动 
relationships with soil resources in the Hunshandake desert, China 92w3122b4 物 学 ;环境 科学 .安全 科学 

3 Data for; Predicting the Impacts of Mutations on Protein-Ligand Affinity 10. 17632/ Q5;Q7;R3;Q;Q93 生物 化 学 ;分 子 生 物 学 ;基础 医 
Based on Molecular Dynamics Simulations and Machine Learning Methods nwmyvyyy2v. 3 学 ;生物 科学 ;微生物 学 

4 Data for; Seat Allocation Model for High-speed Railway Passenger 10. 17632/ U292. 5; TP311. 52; ”铁路 通过 能 力 、 运 送 能 力 ;软件 


Transportation Based on Flexible Train Composition 


5 Detection and characterization of quantitative trait loci for coleoptile e- 


longation under anaerobic conditions in rice 


466djt2cev. 1 
TB383; 


10. 6084/m9. 
figshare. 11993403 


TV213. 4; TP311. 13; 


Q94 ;Q; R3; R9:Q7 


系统 ;特种 结构 材料 


植物 学 ;生物 科学 ;基础 医 
学 ;分 子 生 物 学 


开发 ;高 速 铁路 ;数据 库 理论 与 


学 ; 药 


T- 
> oam 共 检索 到 1009 条 记录 EE CAL Zu Ma MEE 7 | 高 频 词 去 
I 外 文 期 刊 论文 (1009) Be AEAISISAT abiotic stress 
© rice (oryza sa... 
开放 课件 (4) 
er 英文 科技 图 书 (629) 8 Proteomic analysis of the rice (Oryza officinalis) provides clues on oryza sativa.l. gene expression 
e 科学 数据 (182157) molecular tagging of proteins for brown planthopper resistance EJ] rice 
© ARE) ud transqdigf 
xi Xiaoyun Zhang;Fuyou Yin;Suqin Xiao;Chunmiao Jiang et al. | en | BMC Plant Biology, 2019,19 Magnaporthe... 
ti 
e Oo 期 刊 Abstract Background Among various pests, the brown planthopper (BPH) that damages rice is the PTAA ee 
major destructive pests. Understanding resistance mechanisms is a critical step toward effective 
e Rice (168) control of BPH. This study investigates the proteomics of BPH interactions with three rice cultivars: t. | 相关 主题 
人 
QV) | PmePentBiooay Cito) 因 全 文 直达 exem OLAS ISI 
N Bmc Genomics (95) maize wheat barley sugarcane 
© Ciéncia Rural (26) 8 Heterosis analysis and underlying molecular regulatory mechanism in a groundnut soybean com cowpea 
N 更 多 wide-compatible neo-tetraploid rice line with long panicles EJ E chickpea paddy 
Mohammed Abdullah Abdulraheem Ghaleb;Cong Li;Muhammad Qasim Shahid;Hang Yu et al. | en 
am [IH 支撑 数据 | BMC Plant Biology, 2020,20 Tm 
> 科学 数据 (1009) Abstract Background Neo-tetraploid rice, which is a new germplasm developed from autotetraploid 
m rice, has a powerful biological and yield potential and could be used for commercial utilization. The = rice 
x< 年 份 length of panicle, as a part of rice panicle architecture, contributes greatly to high yield. However, littl. 
因 全 文言 大 。” @ 全 文 链接 GNA ISSIR 
a 2020 (134) 


h 


〇 笔者 从 科学 数据 和 学 术 文 献 元 数据 中 识别 出 生物 
物种 名 称 、 化 学 物质 名 称 、 基 因 名 称 等 ,形成 语义 实体 
关联 标签 库 , 基 于 这 些 语义 实体 标签 实现 了 科学 数据 
与 学 术 文 献 的 深层 次 关联 服务 。 以 生物 物种 名 称 、 化 
学 物质 名 称 、 基 因 名 称 等 语义 实体 为 起 点 ,可 以 关联 相 
关 的 科学 数据 和 学 术 文献 以 及 链接 到 NCBI、Uniprot 等 
外 部 数据 源 。 在 科学 数据 的 详细 信息 页 面 上 ,分 别 列 
出 “ 物 物种 名 称 标签 “化 学 物质 名 称 标签 "和 “基因 标 


图 4 在 学 术 文 献 检索 时 分 面 限定 “科学 数据 ” 


数据 可 以 对 以 论文 形式 发 表 的 成 果 进 行 补充 说 明 ,能 
够 帮助 用 户 更 加 了 解 科研 的 整个 过 程 ,可 用 于 研究 再 
现 及 证 伪 。 查 找 和 发 现 数据 是 能 够 重用 科学 数据 的 必 
要 前 提 , 笔 者 基于 Datacite 和 CrossRef 数据 构建 了 科学 
数据 元 数据 库 和 关联 关系 库 , 设 计 并 实现 了 科学 数据 
检索 以 及 与 学 术 文 献 的 关联 服务 系统 ,基于 数据 外 部 
特征 和 语义 特征 实现 科技 资源 之 间 深 度 融 合 关联 ,并 
利用 语义 实体 创建 文献 与 数据 之 间 的 相关 关系 ,支持 


签 ”, 通 过 点 击 这 些 标签 可 以 关联 到 含有 该 实体 名 称 标 
签 的 科学 数据 和 学 术 论 文 , 提供 列表 方式 和 可 视 化 方 
式 两 种 展示 方式 。 基 于 语义 实体 的 关联 服务 见 图 6。 


4 结语 


近年 来 ,科学 数据 的 数量 呈 指 数 增长 ,科学 数据 开 
We SEE .重用 的 理念 已 经 为 研究 人 员 广 泛 接受 。 科 学 


更 深层 次 、 更 细 粒 度 的 语义 关联 服务 ,帮助 用 户 从 多 途 
径 发 现 科 学 数据 以 及 与 其 相关 联 的 学 术 文献 。 不 过 ， 
本 研究 也 存在 一 些 不 足 之 处 ,如 仅仅 采用 基于 词 表 的 
方式 ,对 于 一 些 有 多 个 含义 的 词 进行 抽取 和 分 类 ,会 

致 收 义 性 或 错误 的 分 类 。 如 Latex 一 词 ,表示 乳胶 , 属 
于 化 学 物质 实体 ,同时 Latex 也 是 一 种 数据 格式 。 
此 ,未 来 的 研究 中 将 继续 优化 语义 实体 的 抽取 方式 , 通 
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reefs contain significant pools of carbon and are globally endangered, yet considerable qo 
shellfish reefs’ role as sources (+) or sinks (?) of atmospheric CO2 While CO2 release is a Dy«orod 1 相关 文献 
vm RM Denn i caca sneer 学 术 文献 链接 


primary producers. We provide a framework to account for the dual burial of inorganic and org bo and sinks (2017) 
ei 10 1096/rspb 2017 0891 


£ $ 0.)) resulting from predominantly carbonate deposition. whereas shallow subtidal reefs (?1 0 * 0.4 MgC ha? 
sanmarsh-fringing reefs (71.3 + 0.4 MgC ha?1 yr?!) were dominated by organic-carbon-rich sediments and functioned 
carbon sinks (on par with vegetated coastal habitats) These landscape-level diflerences reflect gradients in shellfish growth, 
‘survwvorshyp and shell bioerosion Notably, down-core carbon concentrabons in 100. to 4000. year-old reefs mirrored 

 expenmental.reef data, suggesting our results are relevant over centennial to mélennial scales, although we note that these 
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roof formation and destruction do not have reciprocal, c 
organic material may be remineralzed while shell may d OYSter reefs as carbon sources and sinks 


existing reefs could be considered as one component o 
HEH: Foe, F. Jost Rodriguez, Antonio B. Gaiman, OOF 10.1096 pb 201.0601 
Charles H Pohior, Michael F Ridge, Justin T. Lindquist| 摘要 : Carbon burial is increasingly valued as a service provided by threatened vegetated coastal hab 
ol reefs contain significant pools of carbon and are globally endangered, yet considerable uncertainty remains 
ori shellfish reefs’ role as sources (+) or sinks (2) of atmospheric CO2. While CO2 release is a by-product of carbo 
production (then burial), shellfish also facilitate atmospheric-CO2 drawdown via filtration and rapid biodeposition of carb 
foang primary producers. We provide a framework to account for the dual burial of inorganic and organic carbon, and 
demonstrate that decade-old experimental reefs on intertidal sandfiats were net sources of CO2 (7.1 +/- 1.2 MgC ha(-1) yr(-1) 科学 数据 链接 
(mu + s e.) resulting from predominantly carbonate deposition, whereas shallow subtidal reefs (-1.0 «/- 0.4 MgC ha(-1) yr(-1)) 
and saltmarsh-fringing reefs (-1.3 +/- 0.4 MgC ha(-1) yr(-1)) were dominated by organic-carbon-rich sediments and functioned | 相关 数据 
as net carbon sinks (on par with vegetated coastal habitats). These landscape-level differences reflect gradients in shellfish El] Data trom: Oyster roots as 
growth, survivorship and shell bioerosion. Notably, down-core carbon concentrations in 100- to 4000-year-old reefs mirrored carbon sources and sinks (2017) 
experimental-reef data, suggesting our results are relevant over centennial to millennial scales, although we note that these 10.5061/dryad.7nd95 
natural reefs appeared to function as slight carbon sources (0.5 +/- 0.3 MgC ha(-1) yr(-1)). Globally, the historical mining of 
the top metre of shellfish reefs may have reintroduced more than 400 000 000 Mg of organic carbon into estuaries. 
Importantly, reef formation and destruction do not have reciprocal, counterbalancing impacts on atmospheric CO2 since 
excavated organic material may be remineralized while shell may experience continued preservation through reburial. Thus, 
protection of existing reefs could be considered as one component of climate mitigation programmes focused on the coastal 
zone. 
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图 5 科学 数据 和 学 术 文献 的 双向 关联 
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DOI: 105061/0ryad 1611 


Wl: Analyses of genome scale data sets are beginning to clartly the ptrylogenetic rettionships of species with complex 
evolutionary histones. Broad sampling across many genes allows for Doth large concatenated data sets to improve genome- 
scale phylogenetic resolution and also for Independent analysis of gene trees and detection of phylogenetic incongruence. EE] pwyogenomxc Anatysis of BAC- 


chinaXiv 
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图 6 基于 语义 实体 的 关联 服务 
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过 深度 学 习 的 方法 ,避免 该 类 问题 的 出 现 。 同 时 ,还 将 
针对 关联 服务 展开 更 深入 的 研究 ,如 对 文献 中 的 数据 
访问 控制 号 进行 识别 和 链接 以 及 对 更 多 类 型 的 语义 实 
体 进行 识别 ,如 蛋白 质 名 称病 虫害 名 称 等 ,对 科学 数 
据 和 学 术 文 献 之 间 关 系 进行 计算 和 推理 ,发 现 数据 和 
文献 之 间 的 更 深层 次 的 关联 关系 。 
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© Abstract: | Purpose/significance | To meet researchers’ increasing demands for scientific data retrieval and 


«discovery, this study conducts a research on the improvement of the metadata of scientific data and further realizes the 


depth linking discovery between scientific data and academic literature. | Method/process | Based on the investi- 


gating the methods and experiences of linking service, this study proposed a system architecture of scientific data re- 


trieval and linking services, and realized collection and integration of academic resource metadata, enrichment and 


enhancement of scientific data metadata, and retrieval and linking discovery services of scientific data. | Result/con- 


clusion | The improvement of the quality of scientific data metadata can support deeper and more fine-grained seman- 


tic linking services between scientific data and academic literature, and help users discover scientific data and its as- 


sociated academic literature. 
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